热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深度学习|三维重建:StereoDRNet

点击上方“3D视觉工坊”,选择“星标”干货第一时间送达原文链接:https:www.sohu.coma339674840_715754一、摘要我们提出了

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

原文链接:https://www.sohu.com/a/339674840_715754

一、摘要

我们提出了一种基于卷积神经网络(CNN)的深度估计系统,该系统通过对从双目图像对中预测的深度图进行体积融合,从而得到场景的三维重建。我们提出了一种深度改进架构,它可以计算可视图的视差并预测遮挡部分,进而帮助融合系统产生几何一致的重建。我们在提出的新的代价滤波网络中利用3D扩张卷积,与现有滤波架构相比,会产生更好的滤波效果,同时将计算量减少一半。对于特征提取,我们使用Vortex Pooling架构。所提出的方法在KITTI 2012,KITTI 2015和ETH 3D数据集测试中均取得了最优秀的结果。最后,我们证明了我们的系统能够产生高质量的3D场景重建效果,其性能优于当前最先进的重建系统。

1. 新的视差改进网络

我们工作的主要动机是预测立体输入的几何一致视差图,可以直接用于基于TSDF的融合系统,如KinectFusion,用于同步跟踪和绘图。表面法线是KinectFusion类系统中融合权重计算的一个重要因素,我们观察到现有的双目重建系统(如PSMNet)产生的视差图不是几何一致的,对TSDF融合产生负面影响。为了解决这个问题,我们提出了一种新颖的改进网络,它将几何误差,光度误差和未确定的视差作为输入,并产生重新定义的视差(通过残差学习)和遮挡图。

2. 代价滤波中的3D扩张卷积

使用3D代价滤波方法的最先进的双目重建系统(如PSMNet和GC-Net)使用了过多的计算资源。而在我们的系统中,在所有三个维度(即宽度,高度和视差通道)中使用3D扩张卷积给出了更好的结果,并且计算量更少。

3. vortex pooling

我们观察到,与空间金字塔池化(在PSMNet中使用)相比,vortex pooling 提供了更好的结果。我们发现用过滤非基本真实区域的排除掩模微调我们的模型,对于获得视差预测中的锐边和细节非常有用。

二、主要算法

1.整体思路

本论文所提出的算法可以分解为特征提取,代价滤波和视差估计改进三个步骤,而不是使用通用的编码器 - 解码器CNN。算法整体的系统流程如下图所示。

2.特征提取

特征提取从一个小的共享权重Siamese网络开始,该网络将输入作为图像并将输入编码为一组特征。为了在特征映射中对局部空间信息进行编码,首先使用大小为2的卷积对输入进行下采样。本方法使用三个滤波器而不是大型的卷积,其中第一个卷积的步幅为2。为了编码更多的上下文信息,在学习的局部特征图上选择Vortex Pooling,Vortex Pooling的结构图如下图所示。除了在空间池化输出上的最后3x3卷积之外,我们的每个卷积之后都是批量标准化和RELU激活。为了使特征信息保持紧凑,在整个特征提取过程中将特征的尺寸保持为32。

3.代价体素滤波

首先通过沿宽度,高度和深度尺寸的卷积处理代价量。然后通过2的步幅进行卷积来降低代价的分辨率,然后并行地进行扩张卷积。扩张卷积滤波器的串联上的卷积用于组合从不同感受野获取的信息。

残差学习已经被证明在视差优化过程中非常有效,因此提出了一系列这样的块来迭代地改进视差预测的质量。将整个过程描述为扩张残差代价滤波,如下图所示。

4.视差估计改进

我们首先通过使用一层卷积,然后批量归一化来独立过滤左图像和重建误差以及左视差和几何误差图。随后将这些结果连接起来,进行空洞卷积,从而在不增加网络规模的情况下从更大的上下文中进行采样。我们分别使用速率为1,2,4,8,1和1的扩张。最后,使用没有ReLU或批量归一化的单个卷积来输出遮挡图O和视差残差图R。改进后的网络结构如下图所示。

三、实验

作者在整个多个数据集上测试了所提出的架构,例如SceneFlow,KITTI 2012,KITTI 2015和ETH3D。而且还展示了系统在构建室内场景的3D重建中的实用性。

在SceneFlow数据集上和PSMNet网络的对比效果如下图所示。图中顶行显示差异,底行显示EPE地图。从图中可以看出,作者所提出的网络能够恢复薄和小结构,同时在均匀区域中显示较低的误差。

下表显示了有和没有改进网络架构的定量分析。Stereo-DRNet可以在减少计算时间的同时实现显着降低端点误差。而且作者提出的代价滤波方法在计算量显著降低的情况下实现更高的准确性,证明了方法的有效性。

四、结论

本文提出了一种基于双目的3D场景重建方法,该方法使用卷积神经网络结合预测深度图来估计图像对的深度。

同时提出了一种深度改进架构,它帮助融合系统产生几何一致的重建。最后在SceneFlow数据集上的结果显示,取得了state-of-art的效果。

推荐阅读:

  • 专辑|相机标定

  • 专辑|点云后处理

  • 专辑|SLAM从入门到精通

  • 专辑|事件相机

  • 专辑|OpenCV从理论到实践

  • 专辑|深度学习在3D视觉上的应用

  • 专辑|招聘与项目对接

  • 专辑|读书笔记

  • 专辑|学习资源&求职&编程

  • 专辑|结构光

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题



推荐阅读
  • 由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络(TP-GAN),该技术能通过单一侧面照片生成逼真的正面人脸图像,显著提升了不同姿态下的人脸识别效果。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 本文探讨了亚马逊Go如何通过技术创新推动零售业的发展,以及面临的市场和隐私挑战。同时,介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]
  • 资源推荐 | TensorFlow官方中文教程助力英语非母语者学习
    来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]
  • 自学编程与计算机专业背景者的差异分析
    本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处,结合实际案例分析两者的优势与劣势。 ... [详细]
  • 阅读本文大约需要3分钟。微信8.0版本的发布带来了许多令人振奋的新功能,如烟花特效和改进的悬浮窗,引发了用户的热烈反响。 ... [详细]
  • 卷积神经网络(CNN)基础理论与架构解析
    本文介绍了卷积神经网络(CNN)的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型,并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 多智能体深度强化学习中的分布式奖励估计
    本文探讨了在多智能体系统中应用分布式奖励估计技术,以解决由于环境和代理互动引起的奖励不确定性问题。通过设计多动作分支奖励估计和策略加权奖励聚合方法,本研究旨在提高多智能体强化学习(MARL)的有效性和稳定性。 ... [详细]
  • 基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章:《LearningtoCompar ... [详细]
  • 浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录
    近日,国际权威AI基准测试平台MLPerf发布了最新的推理测试结果,浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录,显著提升了数据中心AI推理性能。 ... [详细]
  • 回顾与学习是进步的阶梯。再次审视卷积神经网络(CNNs),我对之前不甚明了的概念有了更深的理解。本文旨在分享这些新的见解,并探讨CNNs在图像识别和自然语言处理等领域中的实际应用。 ... [详细]
author-avatar
safecaps
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有